iT邦幫忙

2025 iThome 鐵人賽

DAY 22
0
佛心分享-IT 人自學之術

LLM入門學習系列 第 22

Day 22:綜合回顧

  • 分享至 

  • xImage
  •  

Day 22:綜合回顧 — 串聯 LLM 的訓練與推論

本回顧將專注於 LLM 的核心:Transformer 架構,以及它如何完成從學習到應用的整個生命週期。

1. Transformer Decoder 核心流程圖解

大型語言模型(LLM)主要基於 Transformer 的解碼器 (Decoder) 架構。下圖展示了單一 Decoder Block 如何處理信息:

步驟 核心操作 關鍵技術與目的
輸入層 Tokenization $\rightarrow$ Embedding 將原始文字轉為模型可理解的高維向量。加上 Position Encoding 賦予序列順序資訊。
I. 自注意力機制 Multi-Head Self-Attention 模型計算輸入序列中所有 Token 彼此間的關聯性(Q、K、V 矩陣)。Masking 確保生成時只能看到已生成的資訊。
II. 正規化與連接 Add & Layer Normalization 殘差連接 (Residual Connection) 避免梯度消失;層級正規化穩定每層的輸出。
III. 前饋網路 Feed-Forward Layer (FFN) 透過兩層線性變換(MLP),增強模型提取非線性特徵的能力。
重複 N 次 整個 Decoder Block 垂直堆疊 $N$ 次。 增加模型深度,提升模型捕捉複雜語言模式的能力。
輸出層 Linear + Softmax 將最終輸出向量轉換為詞彙表上每個詞的機率分佈,預測下一個 Token。

2. LLM 訓練流程文字解釋

訓練階段是 LLM 從海量數據中學習語言規律、世界知識的過程,本質上是大規模的自監督學習

  1. 資料準備 (Data Preprocessing):收集並清理數萬億 Token 的大規模文本。使用 Tokenizer 將文字轉為模型理解的 Token ID 序列。
  2. 模型初始化 (Model Initialization):建立多層 Transformer Decoder 架構,所有權重以隨機方式初始化,準備學習。
  3. 前向傳播 (Forward Propagation):將輸入 Token 序列送入 Transformer,模型層層計算,最終輸出序列中每一個 Token 的下一個 Token 的機率分佈
  4. 損失計算 (Loss Calculation):使用交叉熵損失 (Cross-Entropy Loss),量化模型預測的機率分佈與真實標籤之間的差距。目標是最小化損失
  5. 反向傳播 (Backpropagation):將損失計算出的誤差反向傳遞,計算每個權重的梯度。使用 AdamW 等優化器,根據梯度更新權重。
  6. 重複與對齊:模型重複訓練多輪(Epochs),直至收斂。最後透過 RLHF/DPO 等技術進行安全對齊,確保模型行為符合人類偏好和倫理規範。

3. ⚙️ LLM 推論流程(Inference)

推論階段是模型在部署後,根據用戶指令逐字 (Autoregressively) 創造答案的過程。

  1. 提示處理 (Prompt Processing):用戶輸入的 Prompt(可能已透過 RAG 增強)經過 Tokenizer 轉為初始 Token 序列。
  2. 第一次計算:模型計算輸入序列,預測第一個生成的 Token 的機率分佈。
  3. 取樣與緩存:根據 Softmax 輸出的機率,使用 Beam Search 或 Top-K/Top-P 等策略選出最合適的第一個 Token。同時,計算產生的 KV Cache 會被儲存(並由 vLLM 等工具優化管理)。
  4. 自回歸循環 (Autoregressive Loop):將原始 Prompt + 第一個生成的 Token 作為新的輸入序列,送回模型計算第二個 Token。
  5. 高效加速:由於 KV Cache 儲存了前面 Token 的計算結果,模型在後續步驟只需計算新生成的那個 Token,極大地加速了推論過程。
  6. 終止:重複此過程,直到模型輸出結束標記EOS 或達到最大生成長度。

上一篇
Day 21:LLM 加速與最佳化 — 讓模型跑得又快又省
下一篇
Day 23:專案初始化與資料收集
系列文
LLM入門學習25
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言